Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏
Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏刚刚,Claude Opus 4.5问世,主打编码、Agent与computer use。Opus 4.5在前端开发、视觉能力上显著提升,更擅长使用电脑。在深度研究、PPT制作与电子表格处理等日常任务方面的表现也全面升级。
刚刚,Claude Opus 4.5问世,主打编码、Agent与computer use。Opus 4.5在前端开发、视觉能力上显著提升,更擅长使用电脑。在深度研究、PPT制作与电子表格处理等日常任务方面的表现也全面升级。
全球编码王座,一夜易主。深夜,Claude Opus 4.5重磅出世,编程实力暴击Gemini 3 Pro、GPT-5.1。才一周的时间,AI圈就完成了一次闭环式迭代。它不仅编程强,而且智能体和计算机使用(computer use)能力也是一流。
Scale AI的新软件工程基准SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过25%: GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。
一直以来,Anthropic 的 Claude 被认为是处理编程任务的最佳模型,尤其是本月初发布的 Claude Opus 4.1,在真实世界编程、智能体以及推理任务上表现出色。其中在软件编程权威基准 SWE-bench Verified 测试中,Claude Opus 4.1 相较于前代 Opus 4 又有提升,尤其在多文件代码重构方面表现出显著进步。
继Kaggle Game Arena的淘汰赛后,国际象棋积分赛成果出炉!OpenAI o3以人类等效Elo 1685分傲视群雄,而Grok 4和Gemini 2.5 Pro紧随其后。DeepSeek R1和GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。
OpenAI 发布了 GPT-5,我在公众号里、社群里、论坛里,很多地方都在刷屏一个消息:GPT-5 来了,而且在编程能力上“强得可怕”。
没等来GPT-5,最先更新的是Gemini 2.5 Deep Think,不愧是你,卷王Gemini。
你会掏钱吗?你说巧不巧,就在 Sam Altman 官宣两个开源推理模型之前的半个小时,却被 Anthropic 抢先一步,发布了新模型 Claude Opus 4.1。
还是Claude痛快,Claude Opus 4.1前脚曝光,今天这就正式发了。编程性能再次突破天花板,超越Claude Opus 4,拿下SOTA。此外在Agent任务和推理方面进一步升级。但加量不加价,定价和Claude Opus 4一样。
GPT-5又咕咕,但是把Claude新模型诈了出来—— Claude Opus 4.1,被曝正在进行内部测试。